智能论文笔记

A Multi-tasking Model of Speaker-Keyword Classification for Keeping Human in the Loop of Drone-assisted Inspection

Yu Li , Anisha Parsan , Bill Wang , Penghao Dong , Shanshan Yao , Ruwen Qin

分类：人工智能

2022-07-08

音频命令是一种首选的沟通媒介，可将检查员保持在半自治无人机进行的民用基础设施检查环境中。为了了解一组异质和动态检查员的特定工作命令，需要为小组成本开发一个模型，并在组更改时很容易适应。本文的动机是建立一个具有股票分布的架构的多任务深度学习模型。该体系结构允许两个分类任务共享功能提取器，然后通过功能投影和协作培训在提取功能中交织在一起的特定主题和关键字特定功能。一组五个授权主题的基本模型对本研究收集的检查关键字数据集进行了培训和测试。该模型在分类任何授权检查员的关键字时达到了95.3％或更高的平均准确性。它在扬声器分类中的平均准确性为99.2％。由于该模型从合并的培训数据中学习的更丰富的关键字表示，因此将基本模型调整为新检查员只需要该检查员的少量培训数据，例如每个关键字五个话语。在验证授权检查员和76.1 \％的检测中，使用说话者分类分数进行检查员验证可以达到至少93.9％的成功率。此外，本文展示了所提出的模型对公共数据集上的大型组的适用性。本文为解决AI辅助人类机器人互动面临的挑战提供了解决方案，包括工人异质性，工人动态和工作异质性。

translated by 谷歌翻译